Le jeu de données est constitué de 569 entrées. Chacune de ces entrées correspond à une personne atteinte d’un cancer du sein chez qui une biopsie de la tumeur a été effectuée. Les noyaux des cellules tumorales on ensuite été énalysé et les données recueillies sont présentées dans le tableau ci-dessous. Pour chaque variable, on a la moyenne (mean), l’erreur standard (SE) et la “pire”" valeur (worst, c’est-à-dire la moyenne des trois plus grandes valeurs de la variable).
Les 10 variables mesurées sur les noyaux des cellules sont :
Chaque échantillon a un identifiant et un diagnostic associé à la tumeur (maligne, M ; ou bénin, B). Il y a 357 tumeurs bénines (62.74 %) et 212 (37.26 %) tumeurs malignes.
Le tableau suivant résume quelques paramètres statistiques pour chaque variables :
La densité de répartition des valeurs de chaque variables est raportée dans les graphiques suivants.
On voit que pour certaines variables comme le périmètre ou le nombre de points concaves, on a une distribution bimodale.
Graphique 1 : répartition des moyennes pour chaque variable
Graphique 2 : répartition des erreurs standard pour chaque variable
Graphique 3 : répartition des pires valeurs pour chaque variable
Pour savoir quelles sont les variables corrélées entre elles, on trace un diagrammes de corrélation :
C’est une variable catégorielle binaire qui renseigne sur le diagnostic associé à l’échantillon. Elle prend soit la valeur “B” pour désigner une tumeur bénine, soit la valeur “M” pour une tumeur maligne.
Ainsi, on voit que deux tiers des tumeurs sont bénignes.
Trois variables numériques continues renseignent sur la taille du noyau des cellules : le rayon (radius), le périmètre (perimeter) et l’aire (area). Elles sont corrélées entre elles et liées par des relations mathématiques.
L’aspect du noyau est raporté par deux variables numériques continues : la compacité et la texture. Comme pour la taille du noyau, les valeurs pour les tumeurs malignes sont plus élevées que pour les bénignes.
La compacité est calculée par la formule suivante : \(\frac{perimeter^2}{area} - 1\)
La texture du noyau est calculée à partie de l’ecart-type des valeurs des échelles de gris.
Cinq variables numériques continues ont été mesurées pour rendre compte de la forme du noyau. On voit que la différence entre les cellules malignes et bénignes est la plus marquée pour les variables concavity et concave points. Les cellules tumorales malignes ont donc un noyau avec des contours plus concaves par rapport aux cellules bénines. La dimension fractale par contre n’est pas différente entre les deux types de cellules.
La dimension fractale est une variable numérique continue. Elle renseigne sur l’irrégularité des contours du noyau des cellules.
La figure ci dessous montre les coefficients de corrélation enntre le diagnostic et les autres variables.
Pour sélectionner les variables pertinentes, nous avons choisi de ne garder que celles qui sont corrélées à plus de 50% avec le diagnostic. Comme le périmètre, l’aire et le rayon sont liés entre eux, nous n’avons gardé que le périmètre, qui est la variable la plus corrélée des trois avec le diagnostic. On obtient alors 9 variables pertinentes qui sont, de la plus corrélée à la moins corrélée : concave_points_worst, perimeter_worst, concave_points_mean, perimeter_mean, concavity_mean, concavity_worst, compactness_mean, compactness_worst, perimeter_se.
Le graphique ci dessous montre le nuage de point obtenu quand on croise les deux variables les plus corrélées :
La deuxième étape de notre analyse consistera à utiliser des algorithmes de clustering pour identifier des groupes au sein des données.
Nous utiliserons trois algorithmes de clustering :
La démarche sera la même à chaque fois : on commencera d’abord avec les données “brutes” c’est-à-dire en utilisant toutes les variables et ensuite en utilisant seulement quelques variables sélectionnées. Notre but étant de pouvoir consituer des clusters proches des catégories diagnostiques (bénin/malin).
Avant de pouvoir utiliser les algorithmes de clustering, on doit d’abord standardiser les données à l’aide de la fonction scale.
L’algorithme produit deux clusters de tailles 375 et 194.
Le tableau suivant résume les performances de l’algorithme en utilisant les sommes inter-clusters et intra-clusters des carrés des distances entre les données.
| Somme intra-cluster | Somme totale | Somme totale intra-cluster | Somme inter-cluster |
|---|---|---|---|
| Cluster 1 : 4971.44 Cluster 2 : 6603.71 |
17040 | 11575.15 | 5464.85 |
##
## wdbc_hclust 0 1
## 1 29 184
## 2 328 28
##
## dt.pred 0 1
## 0 72 7
## 1 2 33